Formal content representation/Représentation formelle de contenus in areas (2017-06-06)
Jérôme Euzenat, L'annotation formelle de documents en (8) questions, in: Régine Teulier, Jean Charlet, Pierre Tchounikine (éds), Ingénierie des connaissances, L'Harmattan, Paris (FR), 2005, pp251-271
Annoter un ensemble de documents informels à l'aide de représentations formelles appelle plusieurs questions qui doivent trouver une réponse si l'on veut développer un système cohérent. Ces questions sont liées à la forme et à l'objet des représentations retenues, à la nécessité d'utiliser de la connaissance indépendante du contenu des documents (ontologies, connaissance de contexte) et au statut du système résultant (grande base de connaissance ou éléments de connaissance distribués). Ces questions sont décrites et illustrées par l'annotation de résumés d'articles en génétique moléculaire.
Web sémantique, recherche de documents par le contenu, annotation formelle, représentation du contenu, ontologie, connaissance de contexte
Raphaël Troncy, Formalisation des connaissances documentaires et des connaissances conceptuelles à l'aide d'ontologies : application à la description de documents audiovisuels, Thèse d'informatique, Université Joseph Fourier, Grenoble (FR), mars 2004
La manipulation de contenus audiovisuels est une tâche à la fois complexe et spécifique, qui nécessite le plus souvent de recourir à des représentations médiatrices. La nature temporelle de l'audiovisuel impose de passer par le biais de la description pour enrichir les documents et donc les exploiter. La numérisation des documents audiovisuels permet d'envisager de nouvelles exploitations des contenus telles que leur recherche "intelligente", leur recomposition dynamique ou la personnalisation de leur accès. Le système technique qui rend ces services doit alors être intégré et faire le lien entre le contenu et sa description. Nous soutenons qu'une représentation de la structure et du contenu des documents est nécessaire. Par structure, nous entendons la structure documentaire c'est-à-dire l'organisation méréologique des éléments qui composent le document, tandis que le contenu est une structure conceptuelle, c'est-à-dire une catégorisation de ces éléments. Cette double représentation fait ressortir le besoin d'un format de description homogène et exploitable par la machine, à la fois expressif et optimal en terme de manipulations. Après une revue des propositions actuelles de modélisation des documents audiovisuels, issues de l'ingénierie documentaire et de l'ingénierie des connaissances, nous montrons qu'aucun des langages étudiés ne permet de traiter ces deux aspects de manière satisfaisante. Nous proposons alors une architecture générale permettant la représentation formelle de la structure et du contenu des documents audiovisuels, qui engendrera une base de connaissances sur laquelle il est possible d'effectuer des raisonnements. Cette architecture se compose d'une ontologie de l'audiovisuel, dont on traduit une partie dans un langage documentaire pour contrôler la structure logique des documents, et d'une ontologie de domaine pour décrire formellement leur contenu. Deux ontologies ont donc été modélisées: l'ontologie générique de l'audiovisuel et une ontologie du cyclisme qui est le domaine d'application de notre architecture. Nous avons développé pour cela l'outil DOE (Differential Ontology Editor), qui implémente la méthodologie de construction d'ontologies utilisée. Nous montrons finalement la pertinence de l'approche à l'aide de deux expérimentations utilisant un corpus de vidéos annoté et pour lesquelles une implémentation de la base de connaissances est proposée, illustrant ainsi les types d'inférences possibles.
Modélisation de documents et de contenus audiovisuels, Ingénierie documentaire, Ingénierie des connaissances, Construction d'ontologies, Raisonnement, OWL, RDF, MPEG-7
Raphaël Troncy, Le raisonnement dans les descriptions documentaires: l'apport de la représentation des connaissances, in: Actes 14e journées francophones sur Ingénierie des Connaissances (IC), Laval (FR), pp161-176, (2 juillet ) 2003
Prix de la meilleure communication
Décrire des documents audiovisuels, c'est prendre en compte des considérations documentaires (la forme d'une émission) et conceptuelles (son contenu). La formalisation de ces descriptions est une piste pour rendre plus aisée la recherche ou plus généralement la manipulation de ces documents. Dans cet article, nous proposons une architecture permettant la construction d'une base de connaissances sur laquelle il est possible d'effectuer des raisonnements tant sur la structure que sur le contenu.
Construction d'ontologies, Connaissances audiovisuelles, OWL/RDF, Langage documentaire, MPEG-7, Raisonnement, Inférences
Rim Al-Hulou, Olivier Corby, Rose Dieng-Kuntz, Jérôme Euzenat, Carolina Medina Ramirez, Amedeo Napoli, Raphaël Troncy, Three knowledge representation formalisms for content-based representation of documents, in: Proc. KR workshop on Formal ontology, knowledge representation and intelligent systems for the world wide web (SemWeb), Toulouse (FR), 2002
Documents accessible from the web or from any document base constitute a significant source of knowledge as soon as the document contents can be represented in an appropriate form. This paper presents the ESCRIRE project, whose objective is to compare three knowledge representation (KR) formalisms, namely conceptual graphs, description logics and objects, for representing and manipulating document contents. The comparison relies on the definition of a pivot language based on XML, allowing the design of a domain ontology, document annotations and queries. Each element has a corresponding translation in each KR formalism, that is used for inferencing and answering queries. In this paper, the principles on which relies the ESCRIRE project and the first results from this original experiment are described. An analysis of problems encountered, advantages and drawbacks of each formalism are studied with the emphasis put on the ontology-based annotations of document contents and on the query answering capabilities.
Jérôme Euzenat, Eight questions about semantic web annotations, IEEE Intelligent systems 17(2):55-62, 2002
Improving information retrieval is annotation¹s central goal. However, without sufficient planning, annotation - especially when running a robot and attaching automatically extracted content - risks producing incoherent information. The author recommends answering eight questions before you annotate. He provides a practical application of this approach, and discusses applying the questions to other systems.
Semantic web, Search by content, Content representation, Ontology, Background knowledge
Jérôme Euzenat, Personal information management and the semantic web, 3p., octobre 2002
Text for the SWAD-Europe workshop on semantic web calendaring
Jérôme Euzenat, L'annotation formelle de documents en huit (8) questions, in: Jean Charlet (éd), Actes 6e journées sur ingénierie des connaissances (IC), Grenoble (FR), pp95-110, 2001
Annoter un ensemble de documents informels à l'aide de représentations formelles appelle plusieurs questions qui doivent trouver une réponse si l'on veut développer un système cohérent. Ces questions sont liées à la forme et à l'objet des représentations retenues, à la nécessité d'utiliser de la connaissance indépendante du contenu des documents (ontologies, connaissance de contexte) et au statut du système résultant (grande base de connaissance ou éléments de connaissance distribués). Ces questions sont décrites et illustrées par la tentative d'annotation de résumés d'articles en génétique moléculaire.
Web sémantique, recherche par le contenu, annotation formelle, représentation du contenu, ontologie, connaissance de contexte
Raphaël Troncy, Intégration texte-représentation formelle pour la gestion de documents XML, DEA d'informatique, Université Joseph Fourier-INPG, Grenoble (FR), 2000
Actuellement, le Web contient d'importantes quantités d'informations couvrant tous les sujets imaginables. Le problème qui était avant de savoir si une information, même très spécifique, était disponible sur le Web, est mainte nant devenu comment retrouver cette information. Apporter du sens intelligible et exploitable par des machines aux documents devrait leur permettre d'utiliser l'information présente, d'améliorer les techniques de recherche, et donc de faire du Web une gigantesque base de connaissance. Les langages de représentation de connaissance sont de bons candidats si l'on souhaite décrire le contenu de documents. L'action Escrire a d'ailleurs pour objectif d'en comparer trois. Parmi eux, la représentation de connaissances à objets apparaît particulièrement adaptée lorsqu'il s'agit de représenter des connaissances complexes sur un domaine en cours d'étude. On pourra alors manipuler plus efficacement une base de documents en les indexant par leur contenu (ou leur sens). Les documents pertinents seront ramenés à partir de requêtes structurées tirant parti du formalisme de représentation de connaissance (hiérarchie de classes, mécanismes de classification...). Nous avons d'abord observé le lien étroit existant entre la nature de la connaissance à représenter et le type du document. Nous avons aussi pu voir que plus que le contenu, c'est l'application résultante qui va décider des éléments à représenter. Nous avons donc essayé d'imaginer quels types de requêtes un utilisateur est susceptible de poser, ce qui nous a conduit à proposer un langage de requêtes. Un corpus de travail a été utilisé pour mettre en oeuvre les choix effectués. Il concerne les interactions géniques chez la drosophile pendant son processus de segmentation. Le système de représentation de connaissances à objets Troeps gère les connaissances contenues dans les documents. Un évaluateur de requêtes a été intégré à ce système pour permettre de l'interroger.
Représentation de connaissance, Représentation du contenu, Sémantique, XML, Recherche d'information, Annotations, Ontologies, Objets
Raphaël Troncy, Intégration texte-représentation formelle pour la gestion de documents XML, Magistère d'informatique, Université Joseph Fourier-INPG, Grenoble (FR), 2000
Représentation de connaissance, Représentation du contenu, Sémantique, XML, Recherche d'information, Annotations, Ontologies, Objets